IU Devチーム
はじめに こんにちは。東京大学大学院修士1年の江口大志です。10月から12月にかけてのパートタイムジョブという形で、LINEでソフトウェアエンジニアとして働きました。 今回はData Platform室のIU Devチームに所属し、LINE社内のData Catalogの検索精度の改善に取り組みました。本ブログではその内容について紹介します。 背景 LINEでは、社内のデータ利活用を促進するためにInformation Universe(以下、IU)と呼ばれる内製のデータプラットフォームを利用していて、LINEのほぼ全てのサービスから生成されるデータが集積されています。 図. LINEの内製のデータプラットフォーム(参考) 現在IUでは、4万テーブルに約400 PBのデータが入っており、それらのデータは毎日150,000ものジョブで生成・変更され増え続けています 「IU Web」は、IUのデータを安全かつ効率的に活用できるように、Data Catalogとして以下のような機能を提供しています。 データの検索機能 データの権限管理 データのメタデータの管理機能(Data Linea